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Résumé. L'extraction de règles d'association est souvent exploitée comme 
méthode de fouille de données. Cependant, une des limites de cette ap- 
proche vient du très grand nombre de règles extraites et de la difficulté 
pour l'analyste à appréhender la totalité de ces règles. Nous proposons 
donc de pallier ce problème en structurant l'ensemble des règles d'associ- 
ation en hiérarchies. La structuration des règles se fait à deux niveaux. Un 
niveau global qui a pour objectif de construire une hiérarchie structurant 
les règles extraites des données. Nous définissons donc un premier type de 
subsomption entre règles issue de la subsomption dans les treillis de Ga- 
lois. Le second niveau correspond à une analyse locale des règles et génère 
pour une règle donnée une hiérarchie de généralisation de cette règle qui 
repose sur des connaissances complémentaires exprimées dans un modèle 
terminologique. Ce niveau fait appel à un second type de subsomption 
inspiré de la subsomption en programmation logique inductive. 

Nous définissons ces deux types de subsomptions, développons un exemple 
montrant l'intérêt de l'approche pour l'analyste et étudions les propriétés 
formelles des hiérarchies ainsi proposées. 

1 Introduction 

L'extraction des règles d'association appliquée à des textes est une méthode de 
fouille de données qui permet de mettre en valeur des liens entre les termes des textes. 
Ces liens peuvent alors être interprétés par des experts en vue, par exemple, de la 
construction d'une ontologie. 

Que ce soit à partir de textes où à partir de base de données, le nombre de règles 
extraites est souvent très grand et difficile à appréhender par un expert humain. De 
nombreux travaux se sont intéressés à élaguer l'ensemble des règles et à les classer soit 
par rapport à des critères statistiques, soit par rapport à une base de connaissances 
Janetzko D. Cherfi H., 2ÔÔ4| . Nous proposons dans cet article une approche visant à 
structurer les règles sous forme hiérarchique afin de permettre à l'expert une approche 
descendante de la lecture de l'ensemble des règles. En réalité, nous proposons à l'expert 
deux approches d'analyse, un niveau global et un niveau local, tous deux reposant sur 
une structuration hiérarchique des règles. Ces deux types de structuration hiérarchique 
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nous ont conduit à définir deux types de subsomption qui, au final, peuvent être com- 
binés. 

L'approche globale a pour objectif de permettre à l'expert d'appréhender l'ensem- 
ble des règles extraites à partir d'un ensemble de textes. L'enjeu est donc de lui pro- 
poser une vision structurée et synthétique de cet ensemble de règles. Nous considérons 
alors les termes comme étant non hiérarchisés. La hiérarchie des règles ainsi constru- 
ite repose sur un premier type de subsomption pour laquelle aucune propriété n'est 
plus générale (ni plus spécifique) qu'une autre. Par exemple des propriétés comme 
vole, respire, pond peuvent être considérées comme indépendantes les unes des autres. 

Au niveau local, l'expert peut disposé de propriétés structurées. Nous construisons 
une hiérarchie locale autour d'une règle ou d'un sous-ensemble de règles en prenant en 
compte des propriétés hiérarchisées au sein d'un modèle terminologique, cette hiérarchie 
repose sur un second type de subsomption des règles. 

Cet article est divisé en six parties. Dans la section 2, nous définissons les règles 
d'association, puis les treillis de Galois que nous utilisons comme support à l'extraction 
des règles. La section 3 précise notre méthodologie d'extraction de règles. La section 4 
présente la structuration globale des règles et définit le premier type de subsomption qui 
repose sur la subsomption dans les treillis. La section suivante décrit la structuration 
locales des règles et définit le second type de subsomption permettant de généraliser 
les règles, en se reposant sur la subsomption en programmation logique inductive. 
Bien que ces travaux soient inspirés d'une problématique de fouille de texte, les deux 
types de subsomption ont été testées sur une base de données réduite pour faciliter 
l'interprétation des résultats. 

2 Le contexte mathématique 

2.1 Les règles d'association 

Pour faire l'analogie avec le vocabulaire généralement utilisé en fouille de données, 
nous allons considérer un texte comme un individu et désignerons par I l'ensemble des 
individus. Les termes sont considérés comme des propriétés et l'ensemble des propriétés 
est noté P. Nous considérons la relation binaire 1Z tel que 1Z C I x P et 1Z (i,p) si 
l'individu i contient la propriété p. 

Définition 1 (Les règles d'association) 

Une règle d'association est une implication pondérée de la forme A B, où A est 
la prémisse, et B est la conclusion, avec AÇ-P,BÇPetAnB = (l). 

Les règles d'association |Agrawal et al., 1993] permettent de mettre en évidence les 
dépendances entre les propriétés. Par exemple, la règle : vole =>■ pond n respire 
(l~l désigne la conjonction des propriétés) peut s'interpréter comme le fait que si un 
individu vole, il est probable qu'il ait les propriétés pond et respire. 

Définition 2 (Motif et image d'un motif) 

Un motif est un sous-ensemble de P. On dit qu'un individu i contient le motif M, 
si M et i sont en relation : V p G M : TZ(i,p). 

L'image d'un motif M est l'ensemble des individus qui contiennent le motif M. 
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Le processus d'extraction des règles d'association est un processus exponentiel, en 
fonction du nombre d'individus et du nombre de propriétés. Il existe plusieurs méthodes 
pour réduire la complexité de ce processus, l'une d'elle est l'utilisation des indices statis- 
tique |Cherri and Toussaint, 2002] . Les deux indices statistiques les plus couramment 
utilisés sont le support et la confiance, qui servent à réduire le nombre de règles ex- 
traites. 



Rappels : support d'un motif, d'une règle, confiance et motif fréquent 

Le support d'un motif représente le nombre d'individus qui possèdent le motif 
sur la cardinalité de l'ensemble des individus. 

support(Mi) = 

card(l) 

Le support d'une règle représente le nombre d'individus qui vérifient la règle, 
c'est-à-dire, qui possèdent le motif A n B 

support(A B) = support{A n B) 

La confiance d'une règle A =>■ B est définie par le fait qu'un individu possède les 
propriétés B sachant qu'il possède celles de A : 

, . , . Support(A => B) 

confzance(A =► B) = gupporf(A) 

Motif fréquent Un motif est dit fréquent si et seulement si son support est 
supérieur à un seuil minsupp. 

Définition 3 (Règle valide, règle totale, règle partielle et règle informative) 

Soit R : A => B une règle : 

La règle R est valide ssi support(R)> minsupp et si sa confiance est supérieure à 
un seuil minconf. 

La règle R est totale ssi confiance (R) = 1, ce qui signifie qu'à chaque fois qu'un 
individu i possède A, i possède également B. Les règles totales ne possèdent donc pas 
de contre- exemple. 

La règle R est partielle ssi confiance (R)<1. Ce sont des règles qui possèdent des 
contre- exemples, c'est-à-dire des individus qui possèdent la partie gauche de la règle 
mais pas la partie droite. 

La règle R est dite informative ssi elle est valide et A n B = 0. 



Propriétés des règles Ces deux propriétés sont utilisées dans la section HTÏ1 

Propl. transitivité : si A => B et B =>■ C et que l'une des règles est valide et l'autre 
totales alors A C est valide. 

Prop2. si A B et que Image(B) C Image(B') alors A =>■ B'. 

Il existe différentes approches pour l'extraction des règles d'association. La première 
issue des travaux en bases de données, est l'extraction de règles à partir des algorithmes 
de motifs fréquents. La seconde est l'extraction des règles à partir d'un treillis de Galois. 
C'est ce deuxième type d'extraction de règles que nous allons utiliser. 
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2.2 Les treillis de Galois 

Rappelons qu'un treillis de Galois ou treillis de concepts s'appuie sur une connexion 
de Galois et organise un ensemble de concepts formels -les fermés de la connexion- en un 
treillis QBarbut and Monjardet, 1970| , |Guénoche, Ï99Ô| , |Ganter and Wille, 19991 ). Les 
concepts se notent ci-dessous Ck = (PkJk) où désigne les propriétés du concept Ck 
(l'intension du concept) et Ik les individus recouverts par le concept (l'extension du 
concept). La relation d'ordre partiel dans un treillis vérifie : CkQCk' ssi IfcÇ/ fe / (et de 
façon duale Pk'QPk)- 



3 Extraction des règles d'association à partir d'un 
treillis de Galois 

La formalisation mathématique de l'extraction de règles d'association à partir d'un 
treillis de Galois est présentée dans ( Guigu ~j.L, 1986| , |Godin et al., 1995| ) et fait 
appel à la notion de propriétés propres et de propriétés héritées pour un concept. De 
façon analogue, l'extraction de règles que nous proposons se fait en parcourant les 
concepts du treillis et en considérant l'intension du concept comme le motif commun 
à toutes les règles extraites à partir de ce concept. Le processus se déroule de la façon 
suivante : 

- Soit C s = (P S ,I S ) sommet du treillis. 

- si le support du motif P s > minsupp 

- alors extraire l'ensemble R s des règles associées au motif P s de la forme 
P t => P s \P h tel que P z C P s . 

- calculer la confiance, supprimer les règles donc la confiance < minconf. 

- appeler récursivement l'algorithme pour tous les concepts subsumés par C s 
dans le treillis. 

- sinon passer à une autre branche du treillis. 

Soit la règle R\ : A =4> B extraite du concept Ci = (P\ Ji ) , nous pouvons calculer 
support(iîi) et confiance (R%) directement du treillis de Galois 

support(Ri) = support(Pi) = ~J77V e ^ confiance(Ri) = — — 7~rr 

Pour trouver le support de A qui n'est peut-être pas un fermé, nous devons chercher 
le concept dont l'intension est le fermé minimal contenant le motif A. Pour cela, on part 
du sommet du treillis, cherchant le premier concept qui possède dans son intension le 
motif A, soit Cj = (Pj ,Ij) ce concept, alors support(A) = support(7 7 ). 

Seules les règles issues d'un motif fermé par rapport à la connexion de Galois sont 
extraites. L'algorithme est donc plus restrictif que Apriori (Agrawal et al. 1994) où 
la notion de fermé n'est pas utilisée. En revanche, cette méthode ne se limite pas 
à l'extraction de règles de type clé =>• fermé\clé comme c'est le cas pour Close 
On obtient donc un sous-ensemble de règles par rapport à Close. 
montre que cet ensemble de règles constitue une base (non mini- 
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maie). De même, notre ensemble de règles extraites constitue une base non minimale. 



RNTI - 1 



Bcndaoud et al. 



4 Classification de règles pour des propriétés non 
hiérarchisées 

La subsomption de règles lorsque les propriétés sont non hiérarchisées repose di- 
rectement sur la structure du treillis de Galois du contexte (I,P,7?.) introduit en sec- 
tion 2. Elle est définie à partir de la subsomption sur l'intension des concepts que nous 
considérons comme des motifs. Nous appelons cette subsomption basée sur les motifs 
M-subsomption et nous la notons Qm- 

4.1 Subsomption des règles non hiérarchisées 

Définition 4 (M-Subsomption des règles) 

Soient Ci — (P\,I\) et C'2 = (P2J2) deux concepts du treillis de Galois. Soient Ri 
une règle issue du motif P\ et R2 une règle issue du motif P2 . 

i?2 M-subsome R\ noté R2 Ç M Ri ssi C2 E Ci dans le treillis du contexte (I,P,1Z). 

4.2 Les R-ensembles 

Définition 5 (R-ensemble) 

Soit M un motif de longueur > 1. Un R-ensemble engendré pour M, noté 
R(M), est défini comme l'ensemble des règles valides qu'il est possible d'extraire de 
M. 

Le fait que deux règles soient du même R-ensemble, signifie qu'elles ont été extraites 
du même concept dans le treillis. De ce fait nous allons les placer dans le même noeud 
de la hiérarchie des règles. Les règles d'un même R-ensemble ont le même support (en 
extension) mais pas forcément la même confiance. 

Exemple : Soient le motif Pi = 

{respire, pond, vole}. Nous pouvons extraire 7 règles, supposons que 3 seulement 
sont valides : 

Ri : respire=^pond, vole, iî 2 : pond=^respire, vole, R 3 : vole=î>respire, pond. 
Ces règles font toutes partie du même R-ensemble noté R(respire, pond, vole). 

4.3 Propriétés de la M-subsomption et du R-ensemble 

Soient Ri, R2 et R3 trois règles extraites respectivement des concepts Ci, C2 et C3. 

1. transitivité si Ri Ç M R2 et R2 Qm R3 alors R\ Ç M R 3 . En effet, puisque si Ci 
Ç C2 et C2 E= C3 alors Ci Ç C3 car la subsomption entre concepts est transitive. 

2. réflexivité R\ Ç M R x car Ci Ç Ci. 

3. anti-symétrie si R\ Çm R2 et R2 Ça/ -Ri alors Ri et R2 sont du même R- 
ensemble, car si Ci Ç C2 et C2 Ç C\ cela implique que Ci = C2 et donc R\ et 
i?2 sont extraites du même concept dans le treillis. 

Les deux propriétés Q et [21 définissent un pré-ordre sur l'ensemble des règles et les 
trois propriétés et El définissent un ordre partiel sur les R-ensembles. 
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4.4 Expérimentation sur la base du "zoo" 

Dans cette section, nous présentons une expérimentation illustrant la M-subsom- 
ption sur une base de données réduite " Zoo" |Forsyth, 1991| où les individus dénotent 
des animaux (antilope, ours, sanglier, ..) et les propriétés (pond, respire, vole, ...) 
sont non hiérarchisées. Cette base de données compte 40 individus et 19 propriétés 
binaires. Nous avons construit le treillis de Galois et extrait les règles d'association 
à l'aide du logiciel Galicia |Valtchev et al., 20 03 . Les règles d'associations ont était 
extraites avec minsupp — 0.3 et minconf = 0.5. Nous avons obtenu 38 règles partielles 
et 7 règles totales. Les règles extraites ont été hiérarchisées selon la M-subsomption. 



R 3 : => respire 



R l7 : vertébré =» respire 
R^: respire =>vertébré 



il 



R 13 : prédateur => respire 



R 2J : qucuc,vertébrc => respire 
R 36 : respire,vertébré =>queue 



R B :pond =* respire 



R 14 : a_dcs_dents, vertébré => respire 
R 35 : respire,vertébré =>a_des_dents 



R IÇ : respire =>poilu 
R 3g : poilu =* respire 



R 28 :pond,respire =>vo\e 
R ao :vole =>pond,respire 



R 21 : 4pattes =»a_des_derits ; vertébré,respire 
R 32 : respire,vertébré,a_des_dents =>4paltes 
R 43 : 4pattes,vertébré => respïre,a_des_dents 
R 44 :4pattes, respire =>a_des_dents,vertébré 



R 3l : a_des_denls,vertébré,respire =» traire 
Rj 9 : traire =>respire,vertébré,a_des_dents 



R 2 , j :traire,poilu,respire,vertébré,a_des_dents =>4pattes 
R 44 :4pattes, respire,a_des_dents,vertébré =>poilu,traire 



R îft :traire,poilu,respire,vertébré,a_des_dents,4pattes =»queue 
R^: traire,queue, respire, a_des_dents,vertébré =>poilu,4pattes 



FiG. 1 - Une partie de la hiérarchie des règles 

Une partie de la hiérarchie des règles est données par la figure ^ Chaque concept 
du treillis Ci (par exemple C117, C127-.) définit un R-ensemble et les liens entre les 
R-ensembles sont les relations de subsomption existant entre les règles des différents 
R-ensembles. Supposons que l'expert prenne comme point de départ la règle R3 : 
respire, qui veut dire l'ensemble des individus possèdent la propriété respire. Si 
cette règle lui semble intéressante, mais trop générale, il peut rechercher des règles 
plus spécifiques qui portent sur une population réduite. Les concepts C126, C117, C127 
et C124 sont subsumés par le concept Ci 10, donc toutes les règles extraites de ces 
concepts sont M-subsumées par la règle R3. Si l'expert veut prendre en compte la 



RNTI - 1 



Bcndaoud et al. 



propriété vertébré, il peut considérer le concept Cu6, et toutes les règles valides issues 
de ce concept lui sont proposées. Il peut réduire encore sa population ou augmenter 
l'information contenue dans les règles en travaillant sur un motif plus grand en ajoutant 
d'autres propriétés, comme : a-des-dents (concept Cigg) ou queue (concept C156). En 
choisissant la propriété a-des-dents, il accède à un R-ensemble de deux règles Ru : 
a-des-dents, vertébré => respire et R35 : respire, vertébrée a-des-dents. S'il 
descend encore dans la hiérarchie vers les concepts C136 et 6*194 et qu'il trouve que sa 
population a été trop réduite (le support a trop diminué), il peut s'arrêter à ce niveau 
de la hiérarchie et ne pas consulter les règles plus spécifiques. 

Maintenant, si l'analyste étudie la règle R13 : prédateur => respire, il se rendra 
compte qu'il n'existe aucune propriété pouvant être ajoutée au motif "prédateur, 
respire" pour avoir une règle valide, car il n'existe aucun descendant du R-ensemble 
règles(prédateur, respire) dans la hiérarchie des règles. 

Cette méthode de classification des règles est simple et ne demande pas de calcul 
supplémentaire, la subsomption de règle étant directement issue du treillis. Elle offre à 
l'analyste une hiérarchie globale pour l'analyse des règles. 



5 Subsomption des règles avec un modèle terminologique 

La M-subsomption permie à l'expert d'avoir une vision globale et structurée de 
l'ensemble des règles. Supposons à présent que l'expert soit plus particulièrement 
intéressé par une règle et qu'il dispose d'un modèle terminologique qui structure en 
une hiérarchie l'ensemble des propriétés P. Nous définissons un second type de sub- 
somption qui permet de générer de nouvelles règles généralisant la règle étudiée. Cette 
subsomption crée donc par rapport au treillis global une structure hiérarchique locale 
dont nous présentons les propriétés formelles. 

En premier lieu, précisons ce que nous appelons modèle terminologique. De façon 
analogue au modèle de connaissances introduit dans la construction d'un treillis (Godin 
et al. 1995) notre modèle terminologique est une hiérarchie de propriétés T construite 
selon la relation Est-un, définie sur T x T. L'interprétation de A Est-un B signifie que 
si un individu possède A alors il possède B qu'on lui rajoute car B n'est pas dans la 
base de données. La relation Est-un est réflexive, transitive et anti-symétrique, c'est 
donc un ordre partiel. Les propriétés de l'ensemble P (du contexte (I,P,7£) sont des 
feuilles pour la relation Est-un. 

5.1 La subsomption en programmation logique inductive 

La programmation logique inductive |Cornuéjols and Miclet, 2001| réalise l'appren- 
tissage de formules de la logique des prédicats à partir d'exemples et de contre-exemples. 
L'enjeu est de construire des expressions logiques comportant des variables liées les unes 
aux autres. 

L'objectif de la PLI est la construction de formules logiques incluant le plus d'exemp- 
les, et le moins de contre-exemples possibles. Notre objectif pour les règles est compa- 
rable. Nous souhaitons engendrer une règle qui généralise une ou plusieurs règles sans 
pour autant sur-généraliser et englober des contre-exemples. 
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Il existe plusieurs types de formules en logique des prédicats et celles qui nous 
intéressent sont les clauses, qui montrent une certaine similitude avec règles d'associa- 
tion. Nous allons rappeler la définition des clauses et nous inspirer de la définition de 
la subsomption entre clauses pour calquer la subsomption entre règles d'association. 

Définition 6 (Clause, théorie et subsomption relative à une théorie) 

Une clause est une formule de la logique des prédicats, qui se compose d'une dis- 
jonction finie de littéraux dont toutes les variables sont quantifiées universellement. 
Une clause s'écrit : -iBiV—iB^V ■■■V~ , B n \/Ai\/A2....VA m ou encore en abrégé : 
B\,B<2,,...,B n ^>A\,A%,...,A m . 

Une théorie est un ensemble de clauses. 

La clause C\ subsume la clause Ci relativement à la théorie T si : de T A C± nous 
pouvons déduire Ci, ce que nous notons : T A Ci \= Ci ou C\ |=t Ci. 

De ces définitions, nous dérivons la subsomption entre règles d'association que nous 
nommons la H-subsomption, notée En premier lieu, nous introduisons la notion 
d'ancêtre d'une propriété. Soient A, B deux propriétés du modèle terminologique. Si 
A (Est-un)* B (la relation Est-un peut-être appliquée plusieurs fois), alors il existe un 
chemin dans la hiérarchie du modèle terminologique entre A et B. Tout ancêtre de A 
est noté À. 



Â=*É 




1 > h A :■ h 




FiG. 2 - Généralisation d'une règle 

Définition 7 (H-Subsomption des règles) Soient deux règles R\ : A =^ B et 
Ri : C =>■ D, Ri \—h Ri ssi C est un ancêtre de A et D est un ancêtre de B. 

Nous nous refusons à garder dans la hiérarchie des règles, des règles du type 
A => Â ou Â =>• A. En effet, ces règles ne sont pas informatives (An A ^ 0) 

L'idée de la H-subsomption a été partiellement reprise de ( |Agrawal and Srikant, f995 
aedche and Staab, 2000| ), sur la généralisation de règles d'association en s'appuyant 
sur une hiérarchie des propriétés. Cependant au lieu de supprimer une règle du type 
A =>■ B lorsqu'existe la règle Â =>• B avec Â l'ancêtre de A, nous avons défini la H- 
subsomption entre ces deux règles et nous les avons gardées toutes les deux, car nous 
pensons que la suppression de A =>■ B va entraîner une perte d'information. 

La figure|2]montre la hiérarchie des règles qui généralisent la règle A =>• E telle que A 
et E sont des ensembles de propriétés. Nous allons décrire comment cette généralisation 
a été faite, sachant que pour un ensemble de propriétés P\ = p\pi...p n en remplaçant 
Pi tel que l<i<n par pi dans P\ on obtient un ancêtre de P\ noté Pi. Il y a deux types 
de généralisation différentes notées dans la figure El par I®1 et l@l : 
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© Généralisation de la partie droite de la règle : Si A =>• E alors A =>■ E. 

La démonstration est immédiate en appliquant la propriété Prop2 de la section 
12.11 En effet Image(E)Ç Image (E), puisque E est plus général que E et donc 
support(i? fl A) > support(E n A). La règle A =>■ E est valide car : 



confiance(k E) 



support(E Fl A) 



> confiance(k =>• E) 



support(E n A) 



support(A) 



support(A) 



® Généralisation de la partie gauche de la règle : Si A => E alors A E sous condi- 
tion. 

Ce type de généralisation est de nature inductive. Nous considérons la règle A ^> A 
comme étant une théorie. De A =4> A et de la règle A => E, nous pouvons déduire 
par transitivité des règles vu à la propriété Propl dans 12.11 la règle A => E, et 
d'après la définition de la subsomption en PLI, nous pouvons déduire que la 
règle A =>■ E subsume la règle A E, par rapport à la théorie A =>• A. Pour ce 
type de généralisation, le support( A =>■ E) > support( A => E) > minsupp, mais 
il faut vérifier la confiance ( A => E) pour que la nouvelle règle reste valide car 
le support de la partie gauche de la règle a augmenté ce qui peut entraîner une 
sur-généralisation et donc le fait d'englober trop de contre-exemples. 

5.2 Propriétés de la H-subsomption 

Soient K t : A B, R 2 : C D et R 3 : E => F 

1. transitivité : si Ri Ç# R2 et R2 alors : Ri Ç# R3, en effet car si C = A 
et E = C alors E = ÂetD = i?etF = Ê alors F = B. 

2. réflexivité : comme nous considérons que chaque propriété est son propres ancêtre 
alors : Ri Qh Ri- 

3. anti-symétrie : si Ri Ç# R2 et R 2 Qh Ri alors Ri = R2, car si A = C et C = À 
alors A = CctB = 5etD = B alors D = B. 

Ces trois propriétés définissent un ordre partiel. 

La hiérarchie des règles peut ne pas être un treillis complet car la borne supérieure 
peut ne pas exister. Ceci est du à l'exclusion des règles du type A =>■ A et A A et par 
le fait que pour certaines généralisations nous devons contrôler la confiance. 

5.3 Expérimentation sur des règles avec modèle terminologique 

Nous avons expérimenté la H-subsomption sur une base de données de 6 individus 
et de 6 propriétés. On suppose que cette base a été créée par un professeur qui voudrait 
savoir quelles sont les grandes tendances dans le choix des modules. Le tableau de cette 
base est présenté dans la table 

Nous avons fixé minsupp — 0.5 et minconf = 0.5. Nous avons obtenu en appliquant 
un algorithme d'extraction de règles à partir de motifs fréquents 9 règles partielles P, 
et 1 règle totale T , qui sont présentées dans le tableau 

Puis nous avons généralisé les règles pour lesquelles la partie droite ou gauche est 
composée d'une propriété ayant un ancêtre dans le modèle terminologique [3] Pour les 
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Mathématiques Informatique 

Algèbre Analyse Algorithmique Ré seau x 

PeertoPeer QoS 



FiG. 3 - Hiérarchie des propriétés 



R 


Algèbre 


Algorithmique 


Probabilité 


QoS 


PeertoPeer 


Biologie 


h 


1 


1 


1 


1 


1 







1 


1 











1 


h 








1 











h 





1 


1 





1 





h 


1 


1 


1 


1 








h 














1 


1 



Tab. 1 - Représentation en tableau de la relation R 





Règles 


Sup. 


Conf. 




R.èglcs 


Sup. 


Conf. 


-Po 


PeertoPeer 


0.5 


0.5 


Ps 


Algorithmique Probabilité 


0.5 


0.75 


Pl 


=> Probabilité 


0.66 


0.66 


Pe 


=> Probabilité, Algorithmique 


0.5 


0.5 


p 2 


Algorithmique 


0.66 


0.66 


Pi 


Algorithmique =S> Algèbre 


0.5 


0.75 




=> Algèbre 


0.5 


0.5 


P S 


=> Algorithmique. Algèbre 


0.5 


0.5 


Pi 


Proba Algorithmique 


0.5 


0.75 


Ta 


Algèbre => Algorithmique 


0.5 


1 



Tab. 2 - Les règles extraites du tableau de^ 



généralisations de type 11)1 nous avons contrôlé la confiance. Nous illustrons par la figure 
Ella hiérarchie de règles construite à partir des deux règles : P7 : Algorithmique =>• 
Algèbre et P4 : Algorithmique => Probabilité, la hiérarchie résultante est présentée 
dans la figure 0] 



Informatique => Mathématiques 



Informatique =» Algèbre Algorithmiqu e^ M athématiques Informatique ^Probabilités 
Algorithmique => Algèbre Algorithmique =* Probabilités 



FiG. 4 - Hiérarchisation des règles P5 et P7 



Supposons que le professeur cherche à caractériser le parcours des étudiants et qu'il 
considère la règle informatique => Algèbre. Il peut chercher des règles plus précises 
pour savoir s'il y a des sous-domaines de l'information qui sont plus particulièrement 
concernés. Ainsi, il accède à la règle Algorithme => Algèbre. A l'inverse, s'il veut 
une vision plus générale de la règle informatique => Algèbre, alors il accède à la 
règle informatique => Mathématique à travers un processus d'induction validé par 
le contrôle de confiance. De cet exemple nous pouvons déduire que la hiérarchie de 



RNTI - 1 



Bcndaoud et al. 



généralisation peut être partagée par plusieurs règles. 

Ainsi, la subsomption entre règles avec des propriétés hiérarchisées permet d'ex- 
ploiter un modèle terminologique et d'utiliser cette hiérarchie des propriétés pour 
généraliser les règles d'association. 

6 Conclusion 

Lorsque le nombre de règles d'association est important, l'analyste cherche à trou- 
ver des liens entre ces règles pour pouvoir en déduire les connaissances connues dans 
son domaine, et éventuellement de nouvelles connaissances. Nous avons ajouté la clas- 
sification des règles d'association dans l'étape de fouille de données pour faciliter le 
travail de l'analyste lors de l'évaluation et de l'interprétation des règles extraites. Nous 
lui fournissons une hiérarchie de règles d'après les propriétés qui les composent, qui lui 
permet de faire ressortir les liens dont il a besoin. 

Les règles d'association ayant des propriétés non hiérarchisées sont classificcs dès 
qu'elles sont extraites du treillis de Galois. De ce fait cette classification ne demande 
pas une étape supplémentaire et offre plusieurs avantages à l'analyste tels que le fait 
de redéfinir un support minimal s'il trouve que sa population a trop été réduite dans 
le bas de la hiérarchie, et de voir toutes les règles valides qui sont extraites du même 
concept (les règles du même R-ensemble). 

La structuration des règles d'association avec des propriétés hiérarchisées permet 
de tenir compte des liens entre les différentes propriétés et de pouvoir généraliser l'une 
des deux parties de la règle. 

La classification des règles d'association dans le cas d'une base de textes sert à relier 
les textes entres eux. Dans le cas des règles avec des propriétés hiérarchisées, cette 
relation entre les textes peut être interprétée comme le fait qu'un texte mentionne des 
termes plus spécifiques qu'un autre, ce qui peut aider l'expert à classifier ces textes. 
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Summary 

Extraction of association rules is widely used as a data mining method. However, 
one of the limit of this approach cornes from the large number of extracted rules and 
the difficulty for a human expert to deal with the totality of thèse rules. We propose to 
solve this problem by structuring the set of rules into hierarchy. The expert can then 
therefore explore the rules, access from one rule to another one more gênerai when we 
raise up in the hierarchy, and in other hand, or a more spécifie rules. 

Rules are structured at two levels. The global level aims at building a hierarchy 
from the set of rules extracted. Thus we define a first type of rule-subsomption relying 
on Galois lattices. The second level consists in a local and more detailcd analysis of 
each rule. It generate for a given rule a set of generalization rules structured into a 
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local hicrarchy. This leads to the définition of a second type of subsomption. This 
subsomption cornes from inductive logic programming and intégrâtes a terminological 
model. 
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